智能论文笔记

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Teven Le Scao , Angela Fan , Christopher Akiki , Ellie Pavlick , Suzana Ilić , Daniel Hesslow , Roman Castagné , Alexandra Sasha Luccioni , François Yvon , Matthias Gallé

分类：自然语言处理

2022-11-09

Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.

translated by 谷歌翻译

Meta-Reinforcement Learning via Language Instructions

Zhenshan Bing , Alexander Koch , Xiangtong Yao , Fabrice O. Morin , Kai Huang , Alois Knoll

分类：机器人

2022-09-11

尽管最近的强化学习最近在学习复杂的行为方面非常成功，但它需要大量的数据才能学习任务，更不用说能够适应新任务了。引起这种限制的根本原因之一在于试验学习范式的强化学习范式的性质，在这种情况下，代理商与任务进行交流并进行学习仅依靠奖励信号，这是隐含的，这是隐含的和不足以学习的一项任务很好。相反，人类主要通过语义表征或自然语言指示来学习新技能。但是，将语言指示用于机器人运动控制来提高适应性，这是一个新出现的主题和挑战。在本文中，我们提出了一种元素算法，该算法通过多个操纵任务中的语言说明来解决学习技能的挑战。一方面，我们的算法利用语言指令来塑造其对任务的解释，另一方面，它仍然学会了在试用过程中解决任务。我们在机器人操纵基准（Meta-World）上评估了算法，并且在培训和测试成功率方面显着优于最先进的方法。该代码可在\ url {https://tumi6robot.wixsite.com/million}中获得。

translated by 谷歌翻译

PercentMatch: Percentile-based Dynamic Thresholding for Multi-Label Semi-Supervised Classification

Junxiang Huang , Alexander Huang , Beatriz C. Guerra , Yen-Yun Yu

分类：计算机视觉

2022-08-30

尽管半监督学习（SSL）的最新研究已经在单标签分类问题上取得了强劲的表现，但同样重要但毫无疑问的问题是如何利用多标签分类任务中未标记数据的优势。为了将SSL的成功扩展到多标签分类，我们首先使用说明性示例进行分析，以获得有关多标签分类中存在的额外挑战的一些直觉。基于分析，我们提出了一个基于百分比的阈值调整方案的百分位摩擦，以动态地改变训练期间每个类别的正和负伪标签的得分阈值，以及动态的未标记失误权重，从而进一步降低了从早期未标记的预测。与最近的SSL方法相比，在不丧失简单性的情况下，我们在Pascal VOC2007和MS-Coco数据集上实现了强劲的性能。

translated by 谷歌翻译

End-to-End Binaural Speech Synthesis

Wen Chin Huang , Dejan Markovic , Alexander Richard , Israel Dejene Gebru , Anjali Menon

分类：人工智能 | 机器学习

2022-07-08

在这项工作中，我们提出了一个端到端双耳语音合成系统，该系统将低抑制音频编解码器与强大的双耳解码器结合在一起，该解码器能够准确地进行语音双耳化，同时忠实地重建环境因素，例如环境噪声或混响。该网络是经过修改的矢量定量变异自动编码器，经过训练，采用了几个精心设计的目标，包括对抗性损失。我们在具有客观指标和感知研究的内部双耳数据集上评估了所提出的系统。结果表明，所提出的方法比以前的方法更接近地面真相数据。特别是，我们证明了对抗性损失在捕获创建真实听觉场景所需的环境效果中的能力。

translated by 谷歌翻译

Building Machine Translation Systems for the Next Thousand Languages

Ankur Bapna , Isaac Caswell , Julia Kreutzer , Orhan Firat , Daan van Esch , Aditya Siddhant , Mengmeng Niu , Pallavi Baljekar , Xavier Garcia , Wolfgang Macherey

分类：自然语言处理 | 人工智能 | 机器学习

2022-05-09

在本文中，我们分享了我们努力建立能够翻译一千多种语言的实用机器翻译（MT）系统的发现。我们在三个研究领域中描述了结果：（i）通过利用半监督预训练的语言识别和开发数据驱动的过滤技术来构建1500多种语言的清洁，网挖数据集；（ii）通过利用大规模的多语言模型来开发用于服务不足的语言的实用MT模型，该模型训练了有监督的并行数据，以使用100多种高资源语言和单语言数据集，以增加1000多种语言；（iii）研究这些语言的评估指标的局限性，并对我们MT模型的输出进行定性分析，突出显示了这些类型模型的几种频繁误差模式。我们希望我们的工作为旨在为当前研究的语言构建MT系统的从业者提供有用的见解，并突出显示可以补充Data-Sparse设置中大量多语言模型的弱点的研究方向。

translated by 谷歌翻译

MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding

Revanth Gangi Reddy , Xilin Rui , Manling Li , Xudong Lin , Haoyang Wen , Jaemin Cho , Lifu Huang , Mohit Bansal , Avirup Sil , Shih-Fu Chang

分类：自然语言处理 | 计算机视觉

2021-12-20

最近，对建立问题的兴趣越来越兴趣，其中跨多种模式（如文本和图像）的原因。但是，使用图像的QA通常仅限于从预定义的选项集中挑选答案。此外，在现实世界中的图像，特别是在新闻中，具有与文本共同参考的对象，其中来自两个模态的互补信息。在本文中，我们提出了一种新的QA评估基准，并在新闻文章中提出了1,384个问题，这些文章需要跨媒体接地图像中的物体接地到文本上。具体地，该任务涉及需要推理图像标题对的多跳问题，以识别接地的视觉对象，然后从新闻正文文本中预测跨度以回答问题。此外，我们介绍了一种新颖的多媒体数据增强框架，基于跨媒体知识提取和合成问题答案生成，自动增强可以为此任务提供弱监管的数据。我们在我们的基准测试中评估了基于管道和基于端到端的预先预测的多媒体QA模型，并表明他们实现了有希望的性能，而在人类性能之后大幅滞后，因此留下了未来工作的大型空间，以便在这一具有挑战性的新任务上的工作。

translated by 谷歌翻译

Detecting Damage Building Using Real-time Crowdsourced Images and Transfer Learning

Gaurav Chachra , Qingkai Kong , Jim Huang , Srujay Korlakunta , Jennifer Grannen , Alexander Robson , Richard Allen

分类：计算机视觉

2021-10-12

经过大量地震后，我们可以看到个人和媒体机构在社交媒体平台上发布的图像由于这些天智能手机的大规模使用而发布。这些图像可用于提供关于公共和研究群落的地震区域震荡损坏的信息，并且可能导致救援工作。本文提出了一种自动化的方法，可以在来自诸如Twitter等社交媒体平台的地震之后提取损坏的建筑图像，从而识别包含此类图像的特定用户帖子。使用传输学习和〜6500手动标记图像，我们培训了深入学习模型，以识别现场损坏的建筑物的图像。当在土耳其2020 M7.0地震发生后，在不同地区的新收购的地震图像上进行地震图像的地震图像时，训练有素的模型取得了良好的表现。此外，为了更好地了解模型如何做出决策，我们还实现了Grad-CAM方法来可视化促进决策的图像上的重要位置。

translated by 谷歌翻译

MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence using Federated Evaluation

Alexandros Karargyris , Renato Umeton , Micah J. Sheller , Alejandro Aristizabal , Johnu George , Srini Bala , Daniel J. Beutel , Victor Bittorf , Akshay Chaudhari , Alexander Chowdhury

分类：机器学习

2021-09-29

医疗AI通过支持基于证据的医学实践，个性化患者治疗，降低成本以及改善提供者和患者体验，推进医疗保健的巨大潜力。我们认为解锁此潜力需要一种系统的方法来衡量在大规模异构数据上的医疗AI模型的性能。为了满足这种需求，我们正在建立Medperf，这是一个开放的框架，用于在医疗领域的基准测试机器学习。 Medperf将使联合评估能够将模型安全地分配给不同的评估设施，从而赋予医疗组织在高效和人类监督过程中评估和验证AI模型的性能，同时优先考虑隐私。我们描述了当前的挑战医疗保健和AI社区面临，需要开放平台，Medperf的设计理念，其目前的实施状态和我们的路线图。我们呼吁研究人员和组织加入我们创建Medperf开放基准平台。

translated by 谷歌翻译

Generation and Comprehension of Unambiguous Object Descriptions

Junhua Mao , Jonathan Huang , Alexander Toshev , Oana Camburu , Alan Yuille , Kevin Murphy

分类：

2015-11-07

We propose a method that can generate an unambiguous description (known as a referring expression) of a specific object or region in an image, and which can also comprehend or interpret such an expression to infer which object is being described. We show that our method outperforms previous methods that generate descriptions of objects without taking into account other potentially ambiguous objects in the scene. Our model is inspired by recent successes of deep learning methods for image captioning, but while image captioning is difficult to evaluate, our task allows for easy objective evaluation. We also present a new large-scale dataset for referring expressions, based on MS-COCO. We have released the dataset and a toolbox for visualization and evaluation, see https://github.com/ mjhucla/Google_Refexp_toolbox.

translated by 谷歌翻译

ImageNet Large Scale Visual Recognition Challenge

Olga Russakovsky , Jia Deng , Hao Su , Jonathan Krause , Sanjeev Satheesh , Sean Ma , Zhiheng Huang , Andrej Karpathy , Aditya Khosla , Michael Bernstein

分类：

2014-09-01

The ImageNet Large Scale Visual Recognition Challenge is a benchmark in object category classification and detection on hundreds of object categories and millions of images. The challenge has been run annually from 2010 to present, attracting participation from more than fifty institutions. This paper describes the creation of this benchmark dataset and the advances in object recognition that have been possible as a result. We discuss the chal-

translated by 谷歌翻译